从专才到通才

![[Pasted image 20250727212833.png]]

ChatGPT 并不是唯一的，其最具代表性，所以本课以 ChatGPT 为例

![[Pasted image 20250727213117.png]]

![[Pasted image 20250727213314.png]]

ChatGPT 可以做什么？以最新的 ChatGPT4 来说，它可以：

读档案、读图片、网络搜寻、写程序并执行、画图、使用其他工具、定制化 (GPTs) ...

ChatGPT 算是个......

这些 AI 在「想」些什么？

这些 AI 好像无所不能、无所不知，那么它们到底在「想」些什么呢？整个世界对它来说是长什么样子的？

![[Pasted image 20250727214500.png]]

有篇知名研究 AI 在「想」什么的论文分析了：对 LLaMA 来说，世界上不同的地点在地图上的哪一个位置（如上图所示）

可以看到基本是正确的

徐有齐同学也做了个实验：让 LLaMA 输出台湾每个里（如：大安区大学里）的地理位置

![[Pasted image 20250727215118.png]]

可以看到 LLaMA 对台湾地理的认知还是很有限的，不过另外一个模型 TAIDE 输出的结果要好很多，因为它读了较多的繁体中文资料，对台湾了解的更加深入

![[Pasted image 20250727215545.png]]

![[Pasted image 20250727215827.png]]

使用者的要求千奇百怪、同一种要求可以有截然不同的解法

![[Pasted image 20250727220107.png]]

你觉得哪一种模型是做的最好的？很难有很好的评估标准

延伸到一个问题

我们在使用这些大语言模型时经常会发现：模型会犯错、有时候会有幻觉，因此我们经常抱怨

但是你有没有想过，对于一个模型来说，它要想完全不犯错、完全没有幻觉，其实是并不困难的，它只要足够“保守”，或者说“身为一个 AI 我不想回答这个问题，我无法做这件事情”，它就永远不会犯错

它今天犯错是因为它努力的尝试解决你的问题，所以它才会犯错，所以我们对于这些模型犯错不要太过苛责

对于如何评估一个模型是一个学问，对于模型的评估是非常复杂的

现在往往有人开发了自己的模型，就跳出来说“我这个模型在某些任务上已经超过了 GPT4”，但是要注意是在某些任务上，往往在全面评估的时候那些号称是超过了 GPT4 的模型并不能在所有的面向上都能达到 GPT4 的水平。所以当坊间对某某模型进行吹嘘的时候，大家是需要多注意一下的

过去不用担心人工智能说错话，「分类」只能从既定选项中选择。但现在人工智能可以说任何话了……，我们就需要防止其说出有害的内容，如：脏话、抄袭、歧视等

![[Pasted image 20250727222226.png]]

![[Pasted image 20250727222410.png]]

但是也不要过了头，需要一个平衡点：

![[Pasted image 20250727222536.png]]

现在 AI 已经从「工具」进化成「工具人」，那我还能做什么？

![[Pasted image 20250727223017.png]]

Prompt Engineering：人类与人工智能沟通的艺术

![[Pasted image 20250727223159.png]]

Engineering：工程学的英文「engineering」一词来自于拉丁文 ingenium（意为「巧妙」）、ingeniare（意为「设计」）—— 中文维基百科，2024/02/17

巧妙地设计给语言模型的输入，引导它给我们想要的输出

![[Pasted image 20250727223509.png]]